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摘要 

目前 诸多 模式 识别 任务 的 识别 精度 获得 不 断 提升 ， 
在 一 些 任 务 上 甚至 超越 了 人 的 水 平 。 单 从 识别 精度 的 角 
度 来 看 ， 模 式 识别 似乎 已 经 是 一 个 被 解决 了 的 问题 。 然 
而 ， 高 精度 的 模式 识别 系统 在 实际 应 用 中 依旧 会 出 现 不 
稳定 和 不 可 靠 的 现象 。 因 此 ， 开 放 环 境 下 的 恒 棒 性 成 为 
制约 模式 识别 技术 发 展 的 新 瓶颈 。 实 际 上 ， 在 大 部 分 模 
式 识 别 模 型 和 算法 背后 蕴含 着 三 个 基础 假设 : 封闭 世界 
假设 、 独 立 同 分 布 假设 、 以 及 大 数据 假设 。 这 三 个 假设 直 
接 或 间接 影响 了 模式 识别 系统 的 鲁 棒 性 ， 并 且 是 造成 机 
器 智能 和 人 类 智能 之 间 差 异 的 主要 原因 。 本 文 简要 论述 
如 何 通 过 打破 三 个 基础 假设 来 提升 模式 识别 系统 的 鲁 棒 
性 ， 更 详尽 的 讨论 与 分 析 参 见 [ 们 。 


1. 引言 

模式 识别 方法 的 演化 大 致 可 概括 为 : 统计 学 习 方 法 、 
句法 结构 方法 、 神 经 网 络 与 深度 学 习 方法 。 关 于 早期 模 
式 识别 领域 的 发 展 历史 可 参见 1968 年 Nagy[2]、1980 年 
Fu[3]、 以 及 2000 年 Jain 等 人 [4 的 综述 论文 。 从 2006 
年 [5] 开 始 ， 深 度 学 习 [6] 逐 渐 成 为 模式 识别 领域 的 主流 
方法 。 

传统 的 模式 识别 方法 大 都 基于 人 工 设计 特征 结合 分 
类 器 学 习 的 思想 。 如 图 1 所 示 ， 特 征 提取 部 分 往往 是 与 
特定 任务 相关 的 (如 人 脸 识别 文字 识别 、 指 纹 识别 等 ); 
而 分 类 器 学 习 《 或 模式 分 类 ) 部 分 则 属于 更 加 通用 的 机 
器 学 习 问 题 。 与 此 不 同 ， 深 度 学 习 将 特征 提取 和 分 类 器 
学 习 进 行 结合 ， 通 过 端 到 端的 方式 ， 自 动 地 从 数据 中 学 
习 具 备 更 强 判别 性 的 特征 表示 从 而 实现 高 精度 分 类 。 当 
前 ， 深 度 学 习 已 经 在 不 同 的 模式 识别 任务 上 取得 优异 性 
能 ， 识 别 精度 被 不 断 刷 新 。 

然而 ， 实 验 室 环境 下 高 精度 的 模式 识别 系统 一 旦 部 
署 到 真实 应 用 场景 中 , 依旧 会 出 现 各 种 水 土 不 服 的 现象 ， 
即 鲁 棒 性 不 够 。 造 成 模式 识别 系统 不 够 鲁 棒 的 原因 是 由 
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图 1 模式 识别 基本 方法 概览 


于 其 背后 所 蕴含 的 三 个 基础 假设 。 其 中 第 一 个 假设 是 “ 封 
闭 世界 假设 ”， 即 模式 识别 所 处 理 的 类 别 是 事先 定义 且 
固定 不 变 的 ， 训 练 和 测试 均 围 绕 封 闭 的 k 个 类 别 展开 。 
在 此 假设 下 ， 分 类 问题 变 得 更 为 清晰 和 明确 ， 只 需 将 特 
征 空间 划分 成 k 个 不 同 的 区 域 即 可 。 然 而 ， 在 实际 应 用 
中 ， 样 本 往往 来 自 开放 环境 ， 有 可 能 是 不 属于 任何 类 别 
的 噪声 数据 , 也 有 可 能 是 训练 集 未 出 现 过 的 新 类 别 数据 ， 
还 有 可 能 是 来 自 混淆 区 域 的 对 抗 数 据 。 在 这 些 情况 下 ， 
基于 封闭 世界 假设 的 模式 识别 系统 往往 会 出 现 过 于 自信 
的 明显 错误 。 

第 二 个 假设 是 “独立 同 分 布 假设 ”, 即 样本 与 样本 之 
间 是 相互 独立 的 ， 并 且 训 练 集 和 测试 集 是 同 分 布 的 。 在 
独立 的 假设 下 ， 模 式 识 别 所 优化 的 总 损失 函数 〈 又 叫 经 
验 风 险 ) 可 以 转化 成 每 个 样本 的 损失 函数 之 和 。 而 在 同 
分 布 假设 下 ， 则 可 以 预期 最 大 化 训练 集 的 精度 也 能 带 来 
最 优 的 测试 GZW) 性 能 。 然 而 , 在 现实 环境 中 ,独立 同 
分 布 假设 往往 是 不 成 立 的 。 在 各 种 条 件 和 环境 下 搜集 的 
数据 ， 不 能 简单 的 看 成 是 独立 的 ， 非 独立 数据 的 上 下 文 
关系 能 有 效 提升 模式 识别 的 鲁 棒 性 。 此 外 ， 训 练 集 和 测 
试 集 细微 的 分 布 差异 就 会 带 来 识别 性 能 的 大 幅 下 降 。 

第 三 个 假设 是 “大 数据 假设 ”, 即 训练 数据 的 规模 要 
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2 模式 识别 中 的 三 个 基础 假设 与 鲁 棒 性 问题 


足够 大 以 涵盖 不 同 的 分 布 变化 ， 并 且 数 据 的 标注 要 尽 可 
能 精确 。 在 此 假设 下 ， 唯 一 的 需求 是 模型 具备 足够 强大 
的 拟 合 能 力 ， 通 过 监督 学 习 的 方式 将 获得 较 好 的 泛 化 性 
能 。 然 而 这 个 假设 在 真实 环境 中 往往 也 不 成 立 。 首 先 ,对 
一 些 特定 的 模式 识别 任务 , 很 难 去 收集 大 量 的 训练 数据 ; 
其 次 ， 对 所 有 数据 进行 精准 的 标注 也 是 一 项 很 难 完 成 的 
任务 。 实 际 上 ， 如 何 从 少量 样本 以 及 弱 标 记 数 据 中 进行 
有 效 学习 是 机 器 与 人 类 智能 之 间 的 显著 差异 。 

针对 这 种 局 面 ， 科 技 部 在 “科技 创新 2030 一 新 一 代 
人 工 智 能 重大 项 目 ” 指 南 中 强调 了 “面向 开放 环境 的 自 
适应 感知 ”这 一 研究 方向 的 重要 性 。 同 时 ， 在 2016 年 国 
际 人 工 智能 发 展 协会 CAID 大 会 上 ，AAAI 主席 Thomas 
G. Dietterich 发 表 了 题 为 “Steps Toward Robust 
Artificial Intelligence” 的 主席 演讲 ， 也 强调 了 智能 
系统 在 开放 环境 下 的 自 适 应 性 、 对 噪声 和 错误 的 鲁 棒 性 
等 问题 的 重要 性 。 实 际 上 ， 对 于 开放 环境 和 鲁 棒 模式 识别 
问题 的 研究 , 目前 各 个 国家 和 科研 机 构 都 处 于 起 步 阶 段 ， 
所 以 大 家 的 水 平 属于 “并 跑 ”, 在 这 一 领域 开展 研究 并 取 
得 突破 将 有 力 提 升 我 国 在 模式 识别 领域 的 国际 影响 力 。 

如 图 2 所 示 , 本 文 从 打破 三 个 基础 假设 的 角度 出 发 ， 
对 模式 识别 中 的 鲁 棒 性 问题 进行 分 析 和 讨论 。 从 下 文 开 
始 , 在 每 个 章节 (假设 ) 下 , 分 别 探讨 四 类 问题 ,并 在 最 
后 一 节 进 行 总 结 和 展望 ， 希 望 通过 分 析 当 前 方法 的 不 足 
和 局 限 ， 从 而 提升 模式 识别 在 开放 环境 中 的 鲁 棒 性 。 
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2. 封闭 世界 假设 
大 部 分 模式 识别 方法 均 是 基于 封闭 世界 假设 : 尽管 


往 却 对 特征 空间 进行 完全 的 划分 ， 如 支撑 向 量 机 将 特征 
空间 通过 大 间隔 的 方式 划分 成 两 部 分 、 深 度 神 经 网 络 使 
用 softmax 操作 将 特征 空间 划分 成 固定 个 数 的 类 别 ， 并 
且 默 认 类 别 后 验 概率 之 和 等 于 1。 这 些 封 闭 世界 模型 在 
面 对 开 放 环 境 时 会 出 现 鲁 棒 性 欠缺 的 问题 。 实 际 上 ， 在 
开放 的 特征 空间 中 存在 大 量 的 未 知 区 域 ， 如 图 3 所 示 ， 
为 提升 鲁 棒 性 , 必须 有 效 处 理 Known 和 Unknown 的 问题 。 


2.1 Known Known: 经 验 风 险 

如 图 3a 所 示 ，known known 代表 “things we know 
that we know”， 即 类 别 是 已 知 的 并 且 每 个 类 别 有 一 定 
量 的 已 知 样本 。 这 也 是 模式 识别 问题 的 传统 定义 方式 。 
在 此 设 定 下 ， 经 验 风 险 最 小 化 成 为 主流 的 学 习 方法 ， 即 
通过 最 小 化 训练 集 上 的 分 类 损失 来 学 习 分 类 器 。 然 而 ， 
由 于 训练 数据 有 限 ， 往 往 会 导致 过 拟 合 从 而 使 得 泛 化 性 
能 下 降 . 如 传统 的 最 近邻 分 类 器 往往 会 过 拟 合 , 因此 近 
邻 通 过 在 验证 集 上 寻找 合适 的 k 来 改善 泛 化 性 ， 决 策 树 
方法 [7] 需 要 通过 剪 枝 等 手段 来 防止 过 拟 合 ; 多 层 神经 网 
络 模型 [8] 可 以 拟 合 任意 复杂 的 函数 , 因此 需要 使 用 不 同 
的 策略 来 防止 过 拟 合 。 

结构 风险 最 小 化 [9] 通 过 在 经 验 风 险 和 模型 复杂 度 
之 间 寻 找 折 中 来 改善 泛 化 性 能 ， 如 支撑 向 量 机 [10] 中 使 
用 的 大 间隔 正则 项 可 以 有 效 的 防止 过 拟 合 。 此 后 ， 很 多 
其 他 正则 项 也 被 广泛 使 用 如 稀 玻 正则 [1 、 低 秩 正 则 
[12]、 流 形 正 则 [13] 等 。 一 些 隐 式 的 操作 也 可 看 成 是 特 
殊 的 正则 项 如 带 噪 声 训 练 [14] 、dropout[15] 等 。 针 对 传 
统 的 Known Known 问题 ， 经 验 风 险 最 小 化 结合 正则 项 的 


只 能 观测 到 有 限 的 样本 和 有 限 的 类 别 ， 但 大 部 分 模型 往 


方法 被 广泛 采用 。 
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2.2 Known Unknown: 噪声 风险 

如 图 3b Atas, known unknown 代表 “we know there 
are some things we do not know”。 在 开放 环境 中 ， 
SRA ALATA SEAN I T-ALL A FECA NI ps 
© 据 最 直接 的 方式 是 将 传统 的 k 类 问题 扩展 到 k+l 类 ， 即 
== 用 额外 的 一 个 类 别 来 表示 噪声 。 然 而 ， 这 一 做 法 需要 收 
= 集 噪 声 数据 用 于 训练 ， 由 于 噪声 分 布 的 多 样 性 ， 很 难 无 
O 偏 地 采集 数据 ， 所 以 将 导致 噪声 类 别 难以 建 模 和 泛 化 。 

常用 的 解决 方案 是 模式 拒 识 ， 即 通过 给 传统 的 分 类 
器 设计 相应 的 拒 识 规则 来 屏蔽 噪声 数据 。 如 贝 叶 斯 分 类 
器 的 拒 识 L16]、 文 撑 向 量 机 的 拒 识 L17] 、 最 近邻 分 类 器 
的 拒 识 [18]、 稀 玻 表示 的 拒 识 [19] 等 。 文献 [20] 指 出 : 不 
同 的 分 类 器 结构 和 学 习 算 法 对 拒 识 性 能 有 较 大 影响 。 
此 ， 需 要 针对 不 同 的 分 类 器 类 型 设计 相应 的 拒 识 准则 。 

Softmax 是 神经 网 络 中 常用 的 分 类 层 函 数 , 可 以 看 成 
是 不 同类 别 的 后 验 概率 。 一 般 的 做 法 是 针对 最 大 的 概率 
值 或 者 最 大 的 两 个 概率 值 之 差 ， 设 定 闵 值 来 进行 拒 识 。 
然而 由 于 softmax 的 封闭 世界 性 质 (概率 和 为 1) ， 很 难 
取得 满意 的 拒 识 效果 。 一 个 有 效 的 改进 是 采用 sigmoid 
函数 和 one-vs-all 训练 方式 [21] [22] 来 改善 拒 识 性 能 。 
对 softmax 函数 的 其 他 改进 还 包括 : openmax [23]、 
generative openmax [24] 等 。 

基于 one-class 思想 的 方法 将 所 有 数据 看 成 一 类 ， 
从 而 实现 对 未 知 数据 的 拒 识 ， 代 表 性 工作 有 [25] 和 [26] 
等 。 文 献 [27] 从 理论 上 定义 和 讨论 了 如 何在 分 类 器 的 训 
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3 开放 空间 的 四 种 情况 : (a) known known, (b) known unknown, (c) unknown known, (d) unknown unknown 


练 过 程 中 考虑 噪声 风险 ， 而 文献 [28] 利 用 统计 理论 方法 
来 处 理 开 放 集 识别 问题 。“ 学 会 拒绝 ”是 封闭 世界 和 开放 
世界 模式 识别 的 首要 区 别 ， 虽 然 有 不 少 工作 关注 这 一 问 
题 ， 然 而 更 加 简洁 高 效 的 方法 仍然 需要 不 断 探 索 。 


2.3 Unknown Known: 对 抗 风 险 

如 图 3c 所 示 ,unknown known 代表 “things we think 
这 一 现象 往 
往 发 生 在 不 同类 别 分 界面 附近 的 易 混 淆 区 域 ， 由 于 有 限 
的 训练 样本 很 难 履 盖 这 一 区 域 ， 导 致 这 个 区 域 的 样本 容 
易 被 错误 分 类 。 实 际 上 ， 真 实 世 界 中 样本 落 在 这 个 区 域 
的 频率 也 是 很 低 的 。 然 而 ， 研 究 人 员 从 算法 的 角度 人 工 
生成 此 类 数据 , 称 之 为 “对 抗 样本 ”[29] ,对 模式 识别 的 
鲁 棒 性 提出 了 严峻 的 挑战 。 

通过 给 图 像 增加 一 个 细微 的 肉眼 几乎 不 可 见 的 扰动 ， 
可 以 彻底 改变 模式 识别 系统 对 该 图 像 的 类 别 预 测 ， 说 明 
较 小 的 输入 端 扰动 带 来 了 较 大 的 输出 端 变 化 。 对 抗 样本 
可 以 通过 利用 梯度 信息 [30] 或 者 优化 的 方式 [31] 来 获得 ， 
只 有 图 像 像 素 干 分 之 一 大 小 的 扰动 就 是 以 欺骗 主流 的 深 
度 学 习 系 统 。 利 用 对 抗 样本 来 攻击 模式 识别 系统 将 在 一 
些 对 安全 性 要 求 较 高 的 应 用 中 造成 较 大 的 风险 。 

因此 ， 有 必要 针对 对 抗 样本 设计 相应 的 防御 策略 。 
一 个 主流 的 做 法 是 将 对 抗 样本 作为 增 广 的 数据 [30] 用 于 
训练 来 提升 系统 的 鲁 棒 性 ， 或 利用 一 个 检测 器 来 自动 区 
分 对 抗 样本 和 正常 样本 [32] 。 梯 度 平 滑 [33] 和 重 棒 优化 


we know but it turns out we do not” 。 
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图 4 开放 环境 类 别 增 量 学 习 


[34] 也 被 用 来 防御 对 抗 样本 。 如 图 3c 所 示 ， 对 抗 样本 往 
往 出 现在 易 混 淆 的 区 域 ， 因 此 可 以 通过 增加 该 区 域 的 训 
练 数据 来 提升 鲁 棒 性 ， 如 文献 [35] 和 [36] 通 过 不 同类 别 
样本 的 线性 插值 来 人 为 地 构造 新 数据 ， 一 定 程 度 上 模拟 
了 分 界面 附近 的 数据 分 布 。 目 前 ， 各 式 各 样 的 对 抗 攻击 
方法 依旧 在 不 断 地 被 提出 ， 因 此 有 效 的 防御 手段 和 鲁 棒 
学 习 方 法 是 模式 识别 面临 的 重要 研究 课题 。 


2.4 Unknown Unknown: 开放 类 别 风险 

如 图 3d Bras, unknown unknown 代表 “unknown 
samples grouped into unknown classes”。 在 模式 识 
别 系统 的 实际 应 用 中 ， 数 据 往往 是 连续 不 断 出 现 的 ， 并 
且 类 别 数 也 是 动态 变化 的 ， 这 一 现象 在 学 术 界 被 称 作 开 
放 世 界 识别 [37] 或 类 别 增 量 学 习 [38] 。 

如 图 4 所 示 ， 类 别 增 量 学 习 的 三 个 基本 步骤 是 : 第 
一 步 是 模式 拒 识 ， 即 判断 该 样本 是 已 知 的 还 是 未 知 的 ， 
如 果 是 已 知 样本 则 进行 识别 ， 如 果 是 未 知 样本 则 直接 拒 
识 ， 将 其 暂 存 于 一 个 寄存 器 之 中 ; 待 寄存 器 中 积累 了 足 
够 数量 的 样本 之 后 ， 第 二 步 是 新 类 别 的 发 现 ， 要 判断 这 
些 被 拒 识 的 样本 到 底 是 噪声 还 是 属于 特定 的 新 类 别 ; 在 
得 到 新 类 别 以 及 相应 样本 之 后 ， 第 三 步 则 是 类 别 增 量 学 
习 ， 对 模式 识别 系统 中 存储 的 类 别 进行 动态 扩充 。 

第 一 步 模式 拒 识 在 2. 2 节 已 有 介绍 。 第 二 步 新 类 别 
发 现 ， 可 以 通过 对 寄存 器 中 的 样本 进行 聚 类 分 析 [39] 来 
实现 : 如 果 某 一 个 聚 类 中 包含 足够 的 样本 量 则 可 以 视 为 
一 个 新 的 类 别 ， 如 果 某 一 个 聚 类 只 有 零星 的 几 个 样本 则 
可 以 视 为 噪声 而 忽略 掉 。 用 聚 类 的 方式 来 自动 发 现 新 类 
别 的 难点 在 于 如 何 确定 新 类 别 的 个 数 ， 因 此 聚 类 模型 要 
具备 自动 的 模型 选择 能 力 [40] 来 确定 聚 类 中 心 的 个 数 。 
有 了 新 类 别 及 其 相应 的 样本 之 后 ， 最 后 一 步 则 是 要 
对 整个 模式 识别 系统 进行 调整 使 得 其 具备 新 类 别 的 识别 
能 力 。 一般 来 说 , 在 模式 识别 问题 中 , 判别 式 模型 具有 更 
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高 的 识别 精度 ， 而 生成 式 模 型 更 适合 类 别 增 量 任务 。 因 
此 ， 可 以 结合 二 者 的 优势 设计 算法 ， 如 文献 [41] 在 学 习 
一 个 判别 子 空间 的 同时 ， 利 用 最 近 中 心 分 类 器 几乎 实现 
了 零 成 本 的 新 类 别 扩 增 。 同 样 的 思想 也 可 以 用 于 深度 学 
习 ， 如 文献 [42] 提 出 了 深度 最 近 中 心 分 类 器 、 文 献 [43] 
提出 了 卷 积 原型 网 络 等 。 

然而 ， 类 别 增 量 学 习 的 另外 一 个 问题 是 : 当 新 类 别 
加 入 时 如 果 只 调整 新 类 别 判别 函数 ， 在 新 类 上 的 精度 会 
较 低 ， 而 如 果 同 时 调整 特征 表示 以 及 判别 函数 ， 由 于 旧 
类 别 的 数据 此 时 是 缺失 的 , 会 带 来 “灾难 性 遗忘 ”问题 ， 
即 新 类 别 的 识别 率 提升 了 而 旧 类 别 的 识别 率 却 大 幅 下 降 
了 。 为 了 解决 这 一 问题 ， 文 献 [38] 提 出 增 量 表示 和 分 类 
器 协同 学 习 的 框架 iCaRL 通过 保存 一 部 分 旧 类 别 代 表 性 
数据 来 克服 遗忘 ， 而 文献 [44] 利用 新 类 别 数据 在 旧 类 别 
上 进行 知识 蒸馏 来 一 定 程度 上 弥补 遗忘 问题 。 如 何 克 服 
灾难 性 遗 筷 是 连续 学 习 或 类 别 增 量 学 习 面 临 的 严峻 挑战 ， 
近年 来 吸引 了 大 量 研究 者 关注 。 


3. 独立 同 分 布 假设 

独立 同 分 布 是 模式 识别 中 的 重要 基础 假设 。 在 2015 
年 举办 的 国际 研讨 会 [45] 上 ， 参 会 学 者 一 致 认为 如 何 有 
效 地 从 非 独 立 和 非 同 分 布 数据 中 进行 学 习 是 一 项 重要 而 
富有 挑战 的 课题 。 文 献 [46] 揭 示 了 微小 的 分 布 变化 会 导 
致 模式 识别 系统 显著 的 性 能 下 降 。 如 图 5 所 示 ， 根 据 输 
入 特征 空间 和 输出 类 别 空间 是 否 改变 ， 可 以 将 非 独立 同 


分 布 的 情形 划分 成 不 同 的 任务 ， 下 面 分 别 展开 论述 。 
y=Y VAY 
1 
Cross-class 
1 transfer Learning 
Domain l 
= / . 
X =X adaptation : Multi-task 
i Learning 
(a) 1 (b) 
(9 1) 
1 
MuLti-modal 
X EX MuLti-modal multi-task 
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图 5 不 满足 独立 同 分 布 假设 的 各 种 任务 
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3.1 非 独立 数据 学 习 

传统 模式 识别 往往 假设 数据 之 间 是 独立 的 。 但 是 在 
真实 环境 中 ,数据 往往 会 “成 组 ”出 现 (在 文献 中 又 被 称 
J group, set, bag, Æ field) 。 这 种 “组 ”信息 提 
供 了 样本 之 间 的 上 下 文 依赖 关系 : 在 每 一 个 组 内 部 样本 
不 再 是 独立 的 ， 而 不 同 的 组 之 间 也 不 一 定 是 同 分 布 的 。 
充分 利用 这 种 约束 信息 将 极 大 提高 决策 的 鲁 棱 性 。 

第 一 种 情形 是 “内 容 一 致 性 ” 即 一 个 组 内 的 所 有 样 
本 均 来 自 同 一 个 类 别 , 这 一 问题 在 学 术 界 又 被 称 为 image 
set [47] 或 group-based [48] 分 类 。 相 比 于 单一 样本 的 
决策 , 同一 个 组 里 的 不 同样 本 将 从 不 同 的 角度 (如 姿态 、 
光照 、 形 变 等 ) 提供 互补 信息 从 而 提升 决策 准确 性 。 第 二 
种 情形 是 “风格 一 致 性 ” 即 一 个 组 内 的 所 有 样本 均 具 备 
一 致 的 特定 风格 ， 如 同一 个 人 书写 的 若干 文字 、 同 一 视 
角 下 拍摄 的 多 幅 图 像 、 同 一 种 口音 说 出 的 语音 信号 等 。 
这 在 学 术 界 又 被 称 为 pattern field classification 
[49] 150] 。 同 源 样本 之 间 的 风格 一 致 性 是 提升 决策 鲁 棒 
性 的 有 效 途 径 。 第 三 种 情形 是 多 示例 学 习 [51] ， 即 组 内 
的 单个 样本 是 没有 标记 的 ， 只 在 组 层面 提供 标记 信息 。 
在 此 设 定 下 ， 组 内 样本 不 再 是 独立 同 分 布 的 [52] ， 并 为 
实现 弱 监 督学 习 提 供 了 有 效 途 径 。 

成 组 样本 的 排列 关系 即 上 下 文 信息 [53j 也 是 提升 模 
式 识 别 鲁 棒 性 的 重要 手段 ， 如 语言 上 下 文 、 几 何 上 下 文 
等 。 一 种 有 效 利 用 上 下 文 关 系 的 方式 是 将 不 同样 本 看 成 
序列 , 然后 利用 隐 有 马尔 可 夫 模 型 154]、 条 件 随机 场 [55]、 
递归 神经 网 络 [56] 等 来 对 序列 数据 进行 建 模 。 图 也 是 关 
系 表示 的 重要 方式 ， 因 此 ， 图 神经 网 络 [57] [58] 在 上 下 
文 建 模 中 也 越 来 越 重要 。 此 外 ， 结 构 化 预测 [59] 可 以 充 
分 利用 输出 标签 之 间 的 依赖 关系 来 提升 预测 准确 性 。 


/ 


3.2 自 适应 与 迁移 学 习 

当 训练 数据 〈 源 域 ) 和 测试 数据 (目标 域 ) 分 布 发 生 
变化 时 ， 模 式 识别 性 能 会 大 幅 下 降 ， 因 此 自 适应 和 迁移 
学 习 变 得 尤为 重要 。 当 目标 域 中 拥有 一 定 的 标记 样本 时 ， 
最 简单 直接 的 方式 是 对 源 域 训 练 好 的 模型 进行 微调 ， 称 
之 为 有 监督 的 自 适应 。 另 外 一 类 方法 “ 跨 域 映射 ”, 通过 
学 习 源 域 [60] 或 者 目标 域 [61] 的 映射 函数 ， 来 消除 两 个 
域 之 间 的 分 布 差异 ， 既 可 以 用 于 有 监督 也 可 以 用 于 无 监 
督 自 适应 。 此 外 ， 还 可 以 通过 对 样本 进行 重 加 权 [62] 的 
方式 来 消除 分 布 差异 。 不 同 的 度量 方式 (如 分 布 距离 、 散 
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AEW) [63] 可 以 用 来 有 效 衡量 分 布 差异 从 而 实 
自 适应 。 

近期 ， 对 抗 学 习 [64] [65] 也 被 广泛 用 于 自 适应 和 迁 
移 学 习 。 其 基本 思想 是 尽 可 能 地 让 两 个 域 的 数据 分 布 差 
异 无 法 区 分 , 从 而 得 到 域 不 变 的 特征 表示 。 通过 利用 “ 基 
分 类 器 ”和 “ 域 分 类 器 ”的 相互 对 抗 来 实现 ， 基 分 类 器 实 
现 的 是 传统 分 类 任务 ， 而 域 分 类 器 则 是 要 判断 数据 是 来 
自 源 域 还 是 目标 域 ， 二 者 共享 底层 的 特征 提取 。 对 抗 的 
结果 是 源 域 和 目标 域 的 数据 无 法 区 分 ， 从 而 消除 两 个 域 
之 间 的 分 布 差异 。 

在 模式 识别 问题 中 通过 自 适应 可 以 显著 改善 识别 性 
能 ， 如 文字 识别 中 的 书写 人 自 适应 ， 语 音 识别 中 的 说 话 
人 自 适 应 ， 图 像 分 类 中 的 视角 光照 自 适 应 等 。 传 统 的 自 
适应 往往 假设 只 有 一 个 源 域 ， 然 而 在 实际 应 用 中 ， 多 源 
问题 [66] 经 常 发 生 ， 需 要 将 算法 进行 改进 以 满足 多 个 源 
域 的 需求 。 此 外 , 当 多 源 数 据 混 杂 在 一 起 时 , 如 何 自动 地 
发 现 其 中 隐 含 的 域 [67] 也 是 影响 自 适 应 性 能 的 关键 因素 。 


(Hi 


a 


3.3 多 任务 学 习 

在 模式 识别 中 ， 同 一 输入 信和 号 实际 上 可 以 用 来 完成 
多 种 任务 , 如 一 张 人 脸 图 像 可 以 用 来 预测 种 族 、 年 龄 、 性 
别 等 。 这 些 任 务 相 互 之 间 不 是 独立 的 ， 且 由 于 输出 类 别 
的 不 一 致 导致 其 分 布 也 是 不 同 的 。 充 分 利用 多 种 任务 之 
闻 的 互补 信息 可 以 达到 分 别提 升 彼此 性 能 的 效果 。 

多 任务 学 习 考 虑 的 第 一 个 问题 是 能 否 找到 一 个 通用 
的 特征 表示 ， 在 不 同 的 任务 之 间 较 好 地 迁移 。 传 统 的 人 
工 特征 显然 是 与 任务 相关 的 ， 而 深度 神经 网 络 预 训 练 好 
的 特征 可 以 适用 于 不 同 的 任务 [68] 。 由 于 深度 神经 网 络 
的 分 层 结构 ， 其 底层 往往 学 习 的 是 一 些 低级 特征 而 高 层 
则 是 更 强 的 语义 特征 。 底 层 特征 更 加 一 般 化 而 高 层 特征 
更 与 任务 相关 , 因此 高 层 特征 更 适合 在 相似 任务 间 迁 移 ， 
而 底层 特征 更 适合 在 差异 较 大 的 任务 间 迁 移 [69] 。 

多 任务 学 习 考 虑 的 第 二 个 问题 是 能 否 结合 多 个 任务 
的 监督 信息 来 学 习 不 变 的 特征 表示 。 实 际 上 ， 当 一 个 模 
型 具有 多 个 损失 函数 时 ， 很 大 程度 上 即 是 在 进行 多 任务 
学 习 。 在 此 过 程 中 ,如何 设 计 好 “任务 共享 ”与 “任务 相 
关 ” 的 参数 是 问题 的 核心 。 一 个 简单 直接 的 方式 是 不 同 
任务 共享 底层 特征 , 而 高 层 决策 则 是 与 任务 相关 的 [70]。 
为 更 好 的 实现 任务 之 间 的 交互 ， 也 可 以 通过 约束 的 方式 
[71j 或 学 习 的 方式 [72] 来 实现 更 加 自由 的 信息 共享 。 


> 
NS 
< 十 
© 
© 
© 


:202007 


chinaXiv 


Modality 1 Task 1 Modality 1 ———> Task 1 
Modali Task 2 Modality 2 Task 2 
odality 2 人 odality ~ ! 
Modality k Task n Modalityk ———> Taskk 


(a) synchronous (b) asynchronous 


图 6 两 种 不 同 的 多 模 态 多 任务 学 习 


多 任务 学 习 中 的 另外 一 个 重要 问题 是 如 何 学 习 任 务 
之 间 的 相互 关系 [73] 。 定 义 好 任务 之 间 的 关系 可 以 大 大 
提升 迁移 学 习 的 性 能 。 对 于 特定 的 任务 ， 可 以 只 在 与 之 
最 相关 的 任务 之 间 进 行 迁移 。 和 使 用 所 有 任务 相 比 ， 在 
降低 计算 量 的 同时 也 能 避免 不 相似 任务 在 迁移 过 程 中 造 
成 的 负面 影响 。 此 外 ， 如 何 均衡 不 同 任务 损失 对 训练 过 
程 的 影响 也 是 多 任务 学 习 中 的 重要 问题 ， 可 以 通过 学 习 
不 同 任务 权重 [74] 以 及 对 不 同 任务 梯度 进行 归 一 化 [75] 
的 方式 来 更 好 地 学 习 多 任务 模型 。 


3.4 多 模 态 学 习 

利用 多 模 态 信息 来 提升 模式 识别 鲁 棒 性 的 例子 非常 
i, 如 生物 特征 识别 中 可 以 融合 人 脸 、 指纹、 虹膜 等 来 
更 精准 的 预测 , 无 人 驾驶 中 可 以 融合 雷达 、 摄 像 机 、 
GPS 等 信号 来 实现 更 加 鲁 棒 和 安全 的 决策 等 。 

多 模 态 学 习 的 第 一 个 问题 是 如 何 设计 有 效 的 多 模 态 
融合 策略 。 由 于 不 同 模 态 数据 的 异 构 特 性 ， 很 难 在 原始 
数据 层面 进行 融合 。 主流 的 方法 是 在 “特征 层面 ”[76] 对 
多 模 态 数 据 进行 融合 , 或 者 在 “决策 层面 ”[77] 对 多 模 态 
信息 的 预测 结果 进行 融合 。 由 于 深度 学 习 的 分 层 表 示 机 
制 , 在“ 中间 层 ” 进行 多 模 态 融合 也 逐渐 受到 关注 [78] 。 
通过 多 模 态 融合 , 能 有 效 提升 模式 识别 的 准确 性 。 然 而 ， 
在 实际 应 用 中 ,如何 有 效 考 虑 “ 模 态 缺失 ”[79]〈 即 有 些 
样本 可 能 不 包含 某 些 模 态 ) 是 一 个 关键 问题 。 

跨 模 态 学 习 [80] 也 逐渐 受到 学 术 界 的 关注 。 第 一 个 
例子 是 “ 跨 模 态 检索 ”[81] , 通过 将 不 同 模 态 数据 映射 到 
相同 语义 空间 ， 可 以 利用 一 种 模 态 去 检索 另 一 种 模 态 。 
第 二 个 例子 是 “ 跨 模 态 配 准 ”, 对 不 同 模 态 数据 的 子 模块 
之 间 进 行 配 准 , 如 将 一 部 电影 中 的 镜头 (图像) 与 剧本 章 
节 ( 文 本 ) 进行 对 齐 [82] 等 。 深度 学 习 中 的 注意 力 机 制 是 
实现 跨 模 态 配 准 的 有 效 手 段 。 第 三 个 例子 是 “ 跨 模 态 生 
成 ”， 即 利用 一 种 模 态 的 数据 去 自动 生成 男 一 种 模 态 的 
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数据 ， 如 从 图 像 生成 其 文本 描述 [83] 等 。 跨 模 态 学 习 需 
要 对 不 同 模 态 内 部 的 交互 机 制 进行 探索 和 建 模 。 

对 于 模式 识别 而 言 ， 多 模 态 实际 上 增加 了 输入 端的 
多 样 性 ， 而 多 任务 则 是 增加 了 输出 端的 多 样 性 。 在 实际 
系统 中 , 多 样 性 往往 会 带 来 鲁 棒 性 。 因此 , 多 模 态 多 任务 
学 习 对 于 和 鲁 棒 模 式 识别 尤为 重要 。 如 图 6 所 示 ， 多 模 态 
多 任务 学 习 分 为 两 种 情况 , 第 一 种 情况 是 “同步 ” 即 所 有 
模 态 对 于 每 一 个 任务 均 是 有 效 的 ， 此 时 可 以 通过 多 模 态 
融合 后 再 结合 多 任务 训练 来 提升 系统 的 整体 鲁 棒 性 。 然 
而 ， 一 个 较为 困难 的 设 定 是 图 6b 所 示 的 “异步 ”多 模 态 
多 任务 学 习 ， 如 图 像 分 类 处 理 的 对 象 是 图 片 ， 语 音 识别 
处 理 的 对 象 是 声音 ， 而 机 器 翻译 处 理 的 对 象 是 文本 。 直 
观 上 ， 因 为 它们 的 输入 和 输出 均 不 相同 ， 很 难 将 这 些 问 
题 联合 考虑 ， 并 且 将 之 联合 考虑 到 底 有 没有 益处 也 很 难 
确定 。 文 献 [84] 为 我 们 展示 和 验证 了 这 种 可 能 性 ， 体 现 
出 多 模 态 多 任务 学 习 的 巨大 潜力 。 


4. 大 数据 假设 

以 深度 学 习 为 代表 的 模式 识别 系统 具备 强大 的 训练 
数据 拟 合 能 力 。 如 文献 [85] 所 示 ， 即 便 将 训练 数据 的 标 
签 随机 打 乱 ， 神 经 网 络 依旧 能 够 取得 很 小 的 训练 误差 。 
当 我 们 拥有 一 个 规模 较 大 且 标 注 精准 的 数据 库 时 ， 较 好 
的 训练 数据 拟 合 将 同时 带 来 较 好 的 泛 化 性 能 。 然 而 ， 在 
实际 问题 中 , “大 数据 ”和 “精准 数据 ”往往 是 矛盾 的 : 
对 较 小 的 数据 库 进 行 逐个 样本 的 精准 标注 是 可 以 实现 的 ， 
然而 对 于 大 数据 的 搜集 将 不 可 避免 地 存在 噪声 和 错误 数 
据 。 因 此 ， 为 提升 模式 识别 在 数据 的 “ 量 ” 和 “ 质 ” 方 面 
的 鲁 棒 性 ， 必 须 从 如 下 的 四 个 方面 展开 研究 。 


4.1 数据 容错 学 习 

大 数据 的 搜集 将 不 可 避免 地 带 来 错误 数据 ， 表 现 为 
三 种 形式 。 第 一 是 标签 错误 即 样本 本 身 是 正确 的 但 由 于 
人 工 标注 而 引入 标签 误差 ， 第 二 是 样本 错误 即 由 于 样本 
本 身 被 污染 而 带 来 的 偏差 如 图 像 内 容 被 让 挡 或 发 生 形变 
等 ， 第 三 是 噪声 错误 即 样本 是 不 属于 任何 预定 义 类 别 的 
无 意义 数据 ， 但 仍旧 被 标注 成 了 其 中 茶 一 类 。 

针对 数据 容错 学 习 第 一 大 类 方法 是 改良 损失 函数 。 
在 传统 模式 识别 中 ， 为 了 追求 较 好 的 最 优 解 ， 损 失 函 数 
往往 被 设计 成 凸 函数 。 但 是 , 凸 函数 往往 是 无 界 的 , 错误 
数据 会 占据 较 大 的 损失 从 而 支配 训练 过 程 。 因 此 ， 重 棒 
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的 损失 函数 往往 是 非 凸 的 , 例如 改良 后 的 ramp loss [86] 
和 truncated hinge loss [87] 等 。 文 献 [88] 比较 了 不 
同 损失 函数 在 噪声 和 错误 数据 上 的 处 理 能 力 。 

在 数据 的 标注 过 程 中 , 尤其 是 针对 大 类 别 集 问题 (如 
汉字 识别 等 )， 有 些 类 别 之 间 本 身 就 很 容易 混淆 , 因此 极 
易 造 成 标记 错误 。 可 以 通过 估计 一 个 标记 转移 矩阵 [89] 
来 衡量 两 个 类 别 之 间 被 错误 标记 的 概率 ， 从 而 在 所 有 可 
能 的 潜在 类 别 上 计算 损失 来 提升 训练 的 鲁 棒 性 。 此 外 ， 
也 可 以 在 训练 的 过 程 中 自动 检测 和 删除 错误 数据 ， 如 通 
过 集成 学 习 的 方法 [90] 或 将 错误 数据 的 检测 伦 入 到 目标 
函数 的 优化 过 程 中 [91] 等 。 对 数据 进行 重 加 权 从 而 赋予 
错误 数据 较 小 的 权重 [92] 也 是 一 种 重要 的 训练 方法 。 此 
外 ， 还 可 以 通过 在 训练 的 过 程 中 对 错误 数据 的 标记 进行 
自动 更 正 [93] 来 提升 系统 的 鲁 棒 性 。 


42 无 监督 〈 自 监督 ) 学 习 

在 传统 模式 识别 中 ， 无 监督 学 习 往 往 指 的 是 数据 肾 
类 [4] 。 随 着 深度 学 习 的 兴起 , 研究 的 重心 慢 慢 转移 到 无 
监督 表示 学 习 [94] ， 即 利用 无 标记 数据 学 习 一 个 通用 和 
可 迁移 的 特征 表示 。 其 中 自 监督 学 习 《〈 即 通过 数据 本 身 
构造 监督 目标 ) 成 为 无 监督 学 习 的 一 种 新 手段 。 有 如 下 
一 些 方法 。 

第 一 类 方法 是 基于 重 构 的 方法 , 即 通过 特定 的 编码 - 
解码 网 络 结构 对 无 标记 数据 进行 重 构 。 早 期 的 主 成 份 分 
Hr CPCA) 模型 实际 上 即 是 基于 这 种 思想 ， 后 来 的 受 限 玻 
尔 兹 曼 机 [5] 和 自 编 码 机 [95] 也 是 基于 重 构 的 方法 并 可 
以 看 作 是 PCA 模型 的 非 线 性 扩展 。 关 于 自 编 码 机 ， 后 续 
衍生 出 很 多 改进 算法 ， 通 过 自己 重 构 自 己 的 方式 来 学 习 
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较 好 的 语义 特征 表示 。 

既然 数据 是 无 标记 的 ， 那 么 一 个 直观 的 想法 是 能 否 
给 数据 设 定 相应 的 “ 伪 标 签 ”， 从 而 将 问题 转化 成 传统 的 
监督 学 习 问 题 。 事 实 上 ， 可 以 通过 聚 类 算法 将 数据 划分 
成 不 同 的 组 , 再 将 组 的 id 作为 该 样本 的 伪 标 签 来 进行 监 
督学 习 。 然 而 问题 的 难点 在 于 聚 类 算法 的 成 功 依赖 于 好 
的 特征 表示 ， 而 特征 表示 的 学 习 又 需要 聚 类 结果 作为 监 
督 。 因 此 ， 需 要 利用 轮 奉 学 习 的 方式 来 同时 进行 聚 类 和 
特征 表示 学 习 [96] 。 此 外 ,还 可 直接 将 样本 的 id 当 作 伪 
标签 ， 即 通过 训练 使 得 所 有 的 样本 都 尽 可 能 分 开 。 此 时 
类 别 数 等 于 样本 数 ， 如 何 克 服 大 类 别 数 造成 的 影响 是 问 
题 的 关键 [97] [98] 。 

还 可 以 通过 设 定 一 系列 “辅助 任务 ”的 方式 来 进行 
自 监督 学 习 。 如 图 7 所 示 ， 在 视觉 任务 中 可 以 采用 的 辅 
助 任务 包括 : 灰 度 图 像 彩色 化 、 图像 空 缺 恢复 、 图 像 块 关 
系 预测 、 图 像 旋转 角度 预测 等 。 对 于 这 些 任务 , 其 监督 目 
标 可 以 通过 算法 自动 生成 ， 因 此 可 以 利用 海量 无 标记 样 
本 开展 训练 。 此 外 , 为 完成 这 些 任 务 , 学 习 到 的 特征 将 对 
图 像 内 容 以 及 空间 关系 具有 较 好 的 表征 ， 从 而 县 备 较 好 
的 迁移 性 能 。 此外, 在 自然 语言 处 理 领 域 [99], 自 监督 学 
习 也 取得 了 优异 的 性 能 表现 。 由 于 不 同 的 自 监督 任务 是 
从 不 同 的 角度 提出 的 , 通过 多 任务 学 习 (3. 3 节 ) 的 方式 
将 其 进行 整合 [100] 可 以 获得 更 为 丰富 的 特征 表示 。 


4.3 半 监 督学 习 

通过 结合 无 监督 学 习 和 监督 学 习 ， 半 监督 学 习 可 以 
在 使 用 少量 标记 样本 和 大 量 无 标记 样本 的 情况 下 进行 有 
效 学 习 ， 其 基本 思想 是 让 模型 的 预测 在 样本 构成 的 流 形 
上 尽 可 能 平滑 来 改善 分 类 性 能 。 

将 传统 的 监督 损失 与 无 监督 损失 进行 结合 即 可 进行 
有 效 的 半 监 督学 习 , 如 文献 [101] 将 自 编码 机 的 重 构 损失 
与 分 类 损失 结合 用 于 半 监 督学 习 。Self-training [102] 
是 一 种 简单 有 效 的 半 监 督 方法 ， 通 过 轮 蔡 的 方式 让 模型 
给 无 标记 数据 预测 伪 标 签 再 利用 其 进行 监督 学 习 ; Co- 
training [103] 利 用 两 个 不 同 的 模型 在 无 标记 数据 上 为 
彼此 提供 伪 标 签 用 于 训练 ， 而 tri-training [104] 利 用 
bootstrap 得 到 三 个 不 同 的 模型 在 无 标记 数据 上 相互 指 
导 从 而 实现 半 监 督学 习 。 

在 深度 学 习 领 域 ， 生 成 对 抗 网 络 通过 生成 器 和 判别 
器 的 相互 对 抗 实现 半 监 督学 习 [105], 一 方面 可 以 生成 更 
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example [106] 依 旧 能 提升 半 监 督学 习性 能 ， 因 为 它们 往 
往 位 于 流 形 的 低 密 度 区 域 可 以 让 分 类 器 更 好 地 调整 分 界 
面 。 深 度 学 习 的 另 一 个 特点 是 其 运行 过 程 中 往往 会 有 一 
定 的 随机 性 (如 dropout 或 者 数据 扰动 等 ) ， 因 此 即便 
是 同一 样本 两 次 输入 同一 网 络 ， 其 输出 也 可 能 不 一 致 。 
通过 最 小 化 这 种 不 一 致 性 ， 可 以 提升 网 络 在 无 标记 数据 
上 的 平滑 性 从 而 用 于 半 监 督学 习 [107] 。 

从 “老师 -学 生 ” 的 角度 也 能 实现 半 监 督学 习 ， 如 文 


献 [108] 利 用 训练 历史 过 程 中 集成 的 预测 结果 作为 “老师 ” 


来 定义 “学 生 ” 网 络 在 无 标记 数据 上 的 训练 目标 ; 而 文献 
[109] 将 “老师 ”网 络 的 参数 定义 为 “学 生 ” 网 络 参数 的 
历史 平均 ， 然 后 约束 无 标记 数据 在 老师 和 学 生 网 络 之 间 
的 输出 差异 尽 可 能 小 。 这 实际 上 是 在 网 络 训练 的 时 序 过 
程 中 保持 了 无 标记 样本 的 预测 一 致 性 , 实现 了 局 部 平滑 ， 
从 而 提升 半 监 督学 习性 能 。 在 只 有 少量 标记 样本 并 可 充 
分 利用 无 标记 样本 的 情形 下 ， 半 监督 学 习 是 提升 分 类 性 
能 的 有 力 手段 。 


4.4 小 样本 与 零 样本 学 习 

对 于 人 类 智能 而 言 ， 我 们 仅仅 需要 观察 很 少量 的 样 
本 就 可 以 快速 地 学 会 一 个 新 的 概念 。 但 是 ， 模 式 识别 中 
的 主流 模型 往往 都 是 严重 依赖 大 数据 的 ， 因 此 小 样本 
[110] 甚 至 零 样本 [111] 学 习 变 得 尤为 重要 。 

人 脑 具 备 很 强 的 小 样本 学 习 能 力 ， 但 是 这 种 能 力 并 
不 是 凭空 而 来 的 ， 而 是 在 连续 不 断 的 学 习 过 程 中 积累 学 
习 经 验 之 后 慢 慢 形成 的 。 因 此 ， 如 图 8 左 所 示 ， 小 样本 
学 习 的 核心 思想 是 : 通过 在 大 数据 上 (many-shot， 每 个 
类 别 可 以 拥有 较 多 样本 ) 进行 学 习 , 不 断 积累 经 验 后 , 将 
这 种 学 习 的 能 力 迁 移 到 小 样本 新 类 别 上 (few-shot， 每 
个 类 只 有 很 少量 样本 ) 。 并 且 many-shot 和 few-shot 数 
据 集 所 对 应 的 类 别 之 间 是 没有 交集 的 ， 所 以 这 一 过 程 实 
际 上 可 以 理解 为 “小 样本 的 跨 类 别 迁 移 学 习 ”。 

小 样本 学 习 的 一 个 极端 情况 是 零 样本 学 习 ， 即 新 的 
类 别 完 全 没有 训练 样本 。 在 这 种 情况 下 ， 为 了 实现 知识 
的 有 效 迁 移 ， 需 要 利用 一 些 辅助 信息 如 类 别 属性 、 类 别 
名 称 、 类 别 文本 描述 等 。 实际 上 ,， 人 脑 之 所 以 具备 零 样本 
学 习 能 力 ， 是 因为 我 们 有 其 他 的 资源 〈 如 互联 网 、 书 籍 
等 ) 从 中 我 们 可 以 推测 和 顿悟 出 新 类 别 会 是 什么 样 的 。 
所 以 ， 如 图 8 右 所 示 ， 零 样本 学 习 的 本 质 更 像 是 跨 模 态 
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学 习 〈3.4 节 )， 即 从 其 他 模 态 获取 信息 来 解决 当前 模 态 
某 些 类 别 样本 缺失 的 问题 。 

目前 ， 在 每 年 的 顶级 会 议和 期 刊 上 涌现 出 很 多 小 样 
本 和 零 样本 学 习 的 前 治 工作 ， 然 而 它们 的 性 能 水 平 相 比 
大 数据 的 模式 识别 仍然 有 很 大 差距 ， 因 此 是 模式 识别 领 
域 有 待 研 究 的 挑战 性 问题 之 一 。 


5. 总结 与 展望 

本 文 简要 论述 了 如 何 通过 打破 三 个 基础 假设 来 提升 
模式 识别 的 鲁 棒 性 。 模 式 识 别 的 研究 不 能 仅仅 局 限 在 提 
高 识别 精度 上 , 当 更 多 的 评价 指标 [1] 被 考虑 进来 时 可 以 
发 现 模 式 识别 领域 还 有 很 多 或 待 解决 的 科学 问题 值得 研 
Fo 此 外 , 三 个 基础 假设 之 间 也 不 是 孤立 的 , 通过 联合 思 
考 ， 很 多 新 的 研究 问题 也 会 应 运 而 生 。 通 过 消除 三 个 假 
设 的 影响 ， 鲁 棒 模 式 识别 的 研究 将 促进 相关 技术 更 好 地 
应 用 于 开放 环境 中 的 实际 问题 。 
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